시각 유도 직접 선호도 최적화(V-DPO)에 의한 환각 완화

시각 유도 직접 선호도 최적화(V-DPO)에 의한 환각 완화

2025-12-09, G30DR

1. 서론 (Introduction)

1.1 거대 시각-언어 모델의 부상과 신뢰성 위기

인공지능 기술의 진보는 텍스트를 처리하는 거대 언어 모델(Large Language Model, LLM)을 넘어, 시각 정보와 언어 정보를 동시에 이해하고 처리하는 거대 시각-언어 모델(Large Vision-Language Model, LVLM)의 시대를 열었다. LLaVA, GPT-4V, Gemini와 같은 최신 모델들은 이미지를 입력받아 그 내용을 상세히 기술하거나, 이미지 내의 복잡한 시각적 추론을 요구하는 질문에 답변하는 등 인간 수준의 인지 능력에 근접하고 있다. 이러한 기술적 도약은 의료 진단 보조, 자율 주행 시스템의 상황 판단, 시각 장애인을 위한 보조 기술 등 다양한 산업 분야에 혁신적인 변화를 예고하고 있다.1

그러나 이러한 비약적인 발전의 이면에는 ’환각(Hallucination)’이라는 치명적인 기술적 난제가 자리 잡고 있다. LVLM에서의 환각은 모델이 입력된 이미지에 존재하지 않는 객체를 존재한다고 설명하거나, 객체 간의 관계를 사실과 다르게 왜곡하여 서술하는 현상을 의미한다. 예를 들어, 모델이 텅 빈 방 사진을 보고 “방 안에 의자가 있다“고 묘사하거나, 고양이가 쥐를 쫓는 사진을 보고 “쥐가 고양이를 쫓는다“고 설명하는 식이다. 이러한 오류는 단순한 실수를 넘어 모델의 신뢰성을 근본적으로 훼손하며, 정확성이 생명인 의료나 법률, 보안 분야에서의 실질적인 활용을 가로막는 가장 큰 장벽으로 작용하고 있다.3

1.2 환각의 근본 원인: 언어적 사전 확률에 대한 과도한 의존

학계에서는 LVLM이 겪는 환각 현상의 원인을 규명하기 위해 다각적인 연구를 진행해 왔다. 그중 가장 지배적인 가설은 강력한 LLM 백본(Backbone)에 대한 ’과도한 의존(Over-reliance)’이다. LVLM은 일반적으로 방대한 텍스트 데이터로 사전 학습된 LLM을 기반으로 구축된다. 이 LLM은 텍스트 간의 통계적 연관성을 학습하여 문맥상 가장 자연스러운 단어를 예측하는 데 특화되어 있다. 문제는 이 강력한 언어적 능력이 시각적 추론을 압도할 때 발생한다.3

모델은 훈련 과정에서 시각적 입력(Visual Input)을 충분히 참조하지 않고도, 언어적 패턴(Language Priors)이나 상식에 의존하여 그럴듯한 답변을 생성하는 ’지름길(Shortcut)’을 학습하게 된다. 예를 들어, “식탁 위에 무엇이 있습니까?“라는 질문에 대해, 모델은 이미지를 분석하여 실제 물체를 식별하기보다는 통계적으로 식탁 위에 자주 등장하는 ’접시’나 ’수저’가 있을 것이라고 추측하여 답변하는 경향을 보인다. 이러한 언어적 편향(Bias)은 이미지가 훈련 데이터의 분포와 다르거나(Out-of-distribution), 시각적 정보가 복잡할 때 더욱 심각한 환각을 유발한다. 이는 모델이 시각적 증거(Visual Evidence)보다 언어적 유창성(Linguistic Fluency)을 우선시하도록 잘못 정렬(Misalignment)되었음을 시사한다.3

1.3 기존 정렬 방법론의 한계와 V-DPO의 제안

이러한 문제를 해결하기 위해 지도 미세 조정(Supervised Fine-Tuning, SFT)이나 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)과 같은 정렬 기법들이 도입되었다. 특히 최근에는 RLHF의 복잡성을 줄이면서도 효과적인 성능을 보이는 직접 선호도 최적화(Direct Preference Optimization, DPO)가 주목받고 있다. DPO는 보상 모델(Reward Model)을 별도로 학습시키지 않고, 선호 데이터(Preferred)와 비선호 데이터(Dispreferred) 간의 확률 차이를 이용해 정책 모델을 직접 최적화한다.1

그러나 기존의 텍스트 기반 DPO를 LVLM에 그대로 적용하는 것은 한계가 있다. 표준 DPO는 주로 “어떤 텍스트 응답이 더 나은가?“에 초점을 맞추는 ‘응답 대조(Response-Contrast)’ 방식을 사용한다. 이 방식은 모델이 윤리적이거나 도움이 되는 답변을 하도록 유도하는 데는 효과적이지만, 모델이 이미지를 얼마나 정확하게 보고 있는지를 직접적으로 평가하거나 강화하지는 못한다. 즉, 모델은 여전히 이미지를 무시한 채 더 그럴듯한 텍스트를 선택함으로써 DPO 손실 함수를 최소화할 수 있다.

이러한 배경에서 싱가포르 국립대학교(NUS) 연구팀(Yuxi Xie et al., 2024)은 **V-DPO(Vision-guided Direct Preference Optimization)**를 제안하였다. V-DPO는 시각적 정보를 선호도 학습의 핵심 요소로 통합하여, 모델이 언어적 편향에서 벗어나 시각적 앵커(Visual Anchor)에 기반한 응답을 생성하도록 강제하는 새로운 방법론이다. 본 보고서는 V-DPO의 이론적 토대, 방법론적 혁신, 그리고 실험적 검증 결과를 면밀히 분석하여 그 기술적 가치와 향후 LVLM 발전 방향에 미칠 영향을 고찰한다.3


2. 이론적 배경 및 관련 연구 (Theoretical Background)

2.1 거대 시각-언어 모델의 구조와 학습

최신 LVLM들은 일반적으로 시각 인코더(Vision Encoder, 예: CLIP, ViT)와 거대 언어 모델(LLM, 예: LLaMA, Vicuna)을 연결하는 구조를 취한다. 시각 인코더는 이미지를 추상적인 특징 벡터(Feature Vector)로 변환하고, 연결 모듈(Projector)은 이를 LLM이 이해할 수 있는 토큰 임베딩 공간으로 투영한다. LLM은 투영된 시각 토큰과 사용자의 텍스트 질문을 입력받아 자기회귀적(Autoregressive)으로 다음 단어를 예측하여 응답을 생성한다.

이 과정에서 모델의 조건부 확률 분포는 P(Y | V, X)로 표현될 수 있다. 여기서 V는 이미지, X는 텍스트 질문, Y는 생성된 응답이다. 환각은 모델이 P(Y | V, X) 대신 P(Y | X)에 근사하게 작동할 때, 즉 시각 정보 V의 영향력이 미미할 때 발생한다.

2.2 직접 선호도 최적화(DPO)의 메커니즘

DPO는 기존 RLHF의 PPO(Proximal Policy Optimization) 단계가 가진 계산 복잡성과 불안정성을 해결하기 위해 고안되었다. DPO의 핵심 아이디어는 최적의 정책(Policy)이 보상 함수(Reward Function)와 밀접하게 연관되어 있다는 수학적 유도에 기반한다. DPO는 선호되는 응답 y_w와 선호되지 않는 응답 y_l이 주어졌을 때, 정책 모델 \pi_\theta가 참조 모델(Reference Model) \pi_{ref}에서 크게 벗어나지 않으면서 y_w의 확률을 높이고 y_l의 확률을 낮추도록 학습한다.

DPO의 목적 함수(Loss Function)는 다음과 같다:

\mathcal{L}_{DPO}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]

여기서 \beta는 KL 발산(Kullback-Leibler Divergence) 제약의 강도를 조절하는 하이퍼파라미터이며, \sigma는 시그모이드 함수이다. 이 식은 텍스트 도메인에서는 매우 효과적이었으나, 멀티모달 도메인에서는 시각적 정보의 반영 여부를 명시적으로 제어하지 못한다는 한계가 지적되었다.4

2.3 분류기 없는 가이드(Classifier-Free Guidance)

V-DPO는 확산 모델(Diffusion Models)에서 사용되는 ‘분류기 없는 가이드(CFG)’ 개념에서 영감을 얻었다. CFG는 조건부 이미지 생성 시, 조건(Condition, 예: 텍스트 프롬프트)이 생성 결과에 미치는 영향을 강화하기 위해 사용된다. 구체적으로, CFG는 조건부 예측과 무조건부(Unconditional) 예측 간의 차이를 증폭시켜 최종 결과를 조건 쪽으로 유도한다.

수식적으로는 \epsilon_{final} = \epsilon_{uncond} + s(\epsilon_{cond} - \epsilon_{uncond})와 같이 표현되며, 여기서 s는 가이던스 스케일이다. V-DPO는 이 원리를 차용하여, 모델이 텍스트(언어적 사전 확률)에만 의존하는 경우와 시각 정보를 함께 고려하는 경우의 차이를 벌림으로써, 시각 정보의 중요도를 학습 과정에 주입하고자 한다.1


3. V-DPO 방법론: 시각 유도 직접 선호도 최적화

V-DPO의 핵심은 단순히 텍스트 응답의 선호도를 학습하는 것을 넘어, 모델이 ’올바른 이미지’와 ’잘못된 이미지’를 구별하고 이에 맞춰 응답을 생성하도록 유도하는 것이다. 이를 위해 연구진은 데이터 구축 단계와 최적화 단계 모두에서 시각적 요소를 강화하는 전략을 취했다.

3.1 이중 모드 선호도 데이터 구축 전략 (Dual-Mode Preference Data Construction)

V-DPO는 환각 완화를 위해 두 가지 유형의 대조군(Contrastive Pairs)을 포함하는 데이터셋을 구축한다. 이는 모델이 텍스트뿐만 아니라 시각적 맥락의 미세한 차이를 감지하도록 훈련시키기 위함이다.4

3.1.1 응답 대조 선호도 쌍 (Response-Contrast Preference Pairs)

이 유형은 기존의 표준 DPO에서 사용되는 데이터 형식을 따른다.

  • 구조: 동일한 이미지 v와 질문 x에 대해, 사실적인 정답 y_w와 환각이 포함된 오답 y_l로 구성된다.
  • 데이터셋 D_y = \{v^{(k)}, x^{(k)}, y_w^{(k)}, y_l^{(k)}\}_{k=1}^N
  • 역할: 모델이 시각적 내용과 일치하는 텍스트 설명과 그렇지 않은 설명을 언어적으로 구별하게 한다.
  • 한계: 앞서 언급했듯, 모델이 이미지를 보지 않고도 y_w가 문법적으로 더 낫거나 상식에 부합한다는 이유만으로 정답을 맞힐 위험이 있다.

3.1.2 이미지 대조 선호도 쌍 (Image-Contrast Preference Pairs)

V-DPO의 가장 독창적인 기여는 바로 이 ‘이미지 대조’ 데이터의 도입이다. 여기서는 텍스트가 아닌 이미지를 대조시킨다.

  • 구조: 동일한 질문 x와 응답 y에 대해, 해당 응답이 참인 원본 이미지 v_w와, 해당 응답이 거짓이 되도록 조작된 이미지 v_l로 구성된다.
  • 데이터셋 D_v = \{v_w^{(k)}, v_l^{(k)}, x^{(k)}, y^{(k)}\}_{k=1}^M
  • 생성 파이프라인 (합성 데이터 증강):
  1. 캡션 생성 및 개체 추출: LVLM과 LLM을 사용하여 원본 이미지 v_w에 대한 상세한 캡션 y를 생성하고, 주요 객체(Visual Object)를 식별한다.
  2. 이미지 조작 (Negative Sample Generation): 텍스트-이미지(Text-to-Image) 생성 모델인 Stable Diffusion이나 인페인팅(Inpainting) 모델을 활용하여, 식별된 객체를 다른 객체로 치환하거나 제거한다. 예를 들어, 원본 이미지에 ’개’가 있고 캡션이 “개가 있다“라면, 이미지를 조작하여 개를 ’고양이’로 바꾸어 v_l을 생성한다.7
  • 역할: 이 데이터 쌍에서 응답 yv_w에 대해서는 올바른 설명이지만, v_l에 대해서는 틀린 설명(환각)이 된다. 따라서 모델은 y라는 텍스트가 적절한지 판단하기 위해 반드시 시각적 입력 v를 확인해야만 한다. 이는 모델이 언어적 사전 확률에 의존하는 것을 원천적으로 차단하고, 시각적 정보에 대한 민감도(Sensitivity)를 극대화한다.6

3.2 시각 유도 최적화 및 손실 함수

V-DPO는 구축된 D_yD_v 데이터셋을 통합하여 학습을 진행한다. 여기서 핵심은 ’시각 유도(Vision-Guided)’를 수학적으로 손실 함수에 반영하는 것이다.

연구진은 DPO 손실 함수를 변형하여, 시각 정보가 포함되었을 때의 선호 확률과 포함되지 않았을 때(또는 조작된 이미지가 주어졌을 때)의 확률 차이를 최대화하도록 설계하였다. 이는 Classifier-Free Guidance의 원리를 응용한 것으로, 모델이 P(y|v_w, x)P(y|v_l, x)보다 높게 평가하도록 강제한다.

구체적으로, 이미지 대조 데이터 D_v에 대한 손실 함수 \mathcal{L}_{v}^{\text{DPO}}는 모델이 올바른 시각적 맥락(v_w) 하에서 생성된 텍스트의 로그 확률(Log-probability)을 조작된 시각적 맥락(v_l) 하에서의 로그 확률보다 높이도록 유도한다. 이를 통해 모델은 시각적 앵커(Visual Anchor)를 잃지 않고, 입력된 이미지의 실제 픽셀 정보에 기반하여 추론하는 능력을 내재화하게 된다.10 이 과정은 모델이 단순히 “말이 되는” 문장을 만드는 것이 아니라, “보이는 대로” 말하는 능력을 갖추게 하는 핵심 기제이다.


4. 실험 설정 및 평가 방법론 (Experimental Setup)

V-DPO의 유효성을 검증하기 위해 연구진은 광범위하고 엄격한 실험 환경을 구축하였다.

4.1 데이터셋 구성

실험의 공정성과 일반화 능력을 평가하기 위해 합성 데이터와 인간 주석 데이터를 모두 활용하였다.

  1. 합성 증강 데이터 (Synthetic Augmented Data): 연구팀이 제안한 파이프라인을 통해 생성된 데이터셋으로, 5,000쌍의 응답 대조 데이터와 5,000쌍의 이미지 대조 데이터로 구성된다.1
  2. 인간 주석 데이터 (Human-Annotated Data): RLHF-V (Yu et al., 2023) 데이터셋을 활용하여, V-DPO가 인간이 생성한 고품질 데이터에서도 작동하는지 검증하였다. 이는 5,700개 이상의 상세한 인간 피드백 데이터를 포함한다.

4.2 평가 벤치마크 (Benchmarks)

환각 완화 성능뿐만 아니라 일반적인 멀티모달 능력을 종합적으로 평가하기 위해 다양한 벤치마크가 사용되었다.

카테고리벤치마크 이름설명 및 평가 요소
환각 평가 (판별형)POPE (Polling Object Probe Evaluation)이미지 내 객체의 존재 여부를 묻는 ‘예/아니오’ 질문으로 구성. Random, Popular, Adversarial의 세 가지 난이도로 나뉘며, 특히 Adversarial은 빈번하게 등장하지만 실제로는 없는 객체를 물어 모델의 편향을 테스트함.4
환각 평가 (종합)AMBER (Advanced Multimodal Benchmark)객체(Object), 속성(Attribute), 관계(Relation) 등 다양한 유형의 환각을 생성형(Generative) 및 판별형(Discriminative) 작업으로 평가하는 종합 벤치마크.11
통합 능력 평가MM-Vet복잡한 시각적 추론, 인식, 지식 통합 능력을 평가하여 모델의 전반적인 지능 수준을 측정.12
실세계 성능 평가LLaVA-Bench (In-the-wild)일상적인 이미지와 복잡한 질문에 대한 모델의 설명 능력과 대화 품질을 평가. 창의성과 상세성을 요구함.8
기타HallusionBench시각적 착시(Visual Illusion)와 지식 환각을 중점적으로 평가.

4.3 비교 베이스라인 (Baselines)

V-DPO의 성능은 다음과 같은 모델들과 비교 분석되었다.

  • LLaVA-1.5 (SFT): 기본적인 지도 미세 조정만 거친 모델.
  • Vanilla DPO: 시각적 가이드 없이 텍스트 중심의 일반 DPO를 적용한 모델.
  • RLHF-V: 인간 피드백을 활용한 기존의 강력한 정렬 모델.
  • HA-DPO, TPO: 환각 완화를 목표로 하는 최신 DPO 변형 모델들.11

5. 실험 결과 및 심층 분석 (Results and Analysis)

실험 결과, V-DPO는 환각 완화 지표에서 탁월한 성과를 거두었으며, 일반적인 성능 저하 없이 이를 달성했음이 입증되었다.

5.1 POPE 벤치마크: 환각의 현저한 감소와 편향 교정

POPE 벤치마크 결과는 V-DPO가 객체 환각을 줄이는 데 매우 효과적임을 보여준다.4

  • F1 점수의 상승:
  • 합성 데이터 훈련 시, V-DPO는 86.92의 F1 점수를 기록하여 Vanilla DPO(85.98) 대비 0.94점 향상되었다.
  • 인간 주석 데이터(RLHF-V) 훈련 시, V-DPO는 87.22점을 기록, Vanilla DPO 대비 1.24점 향상되었다.
  • 이는 V-DPO가 데이터의 종류(합성 vs 인간)에 상관없이 일관되게 성능을 개선함을 시사한다.
  • ‘Yes’ 편향(Bias)의 획기적 완화:
  • 기존 LVLM들은 불확실한 상황에서 무조건 “Yes“라고 답하는 경향이 강하다. 이는 높은 재현율(Recall)을 보이지만 낮은 정밀도(Precision)를 초래한다.
  • V-DPO는 “Yes” 답변 비율을 47.43% (합성 데이터), 48.66% (인간 데이터)로 조정하여, 이상적인 비율인 50%에 근접시켰다. 반면 Vanilla DPO는 44.22% 등으로 상대적으로 불안정한 분포를 보였다.
  • 이는 모델이 단순히 찍는 것이 아니라, 시각적 증거가 없을 때 “No“라고 단호하게 말할 수 있는 능력이 향상되었음을 의미한다. 특히 Adversarial(적대적) 설정과 같이 모델을 속이려는 질문에서도 견고한 성능을 유지했다.1

5.2 AMBER 및 기타 벤치마크 비교 분석

AMBER 벤치마크에서도 V-DPO는 우수한 성과를 보였다. 특히 속성(Attribute) 환각과 관계(Relation) 환각을 줄이는 데 있어 이미지 대조 데이터 학습이 큰 기여를 한 것으로 분석된다.

모델AMBER (Acc/Score)특징
LLaVA-1.5 (SFT)71.7베이스라인 모델
Vanilla DPO77.5일반적인 DPO 적용 시 성능 향상
TPO (타사 최신 모델)71.3토큰 단위 최적화 모델 (일부 지표에서 낮음)
V-DPO (본 연구)79.3최고 성능 기록 11

위 표에서 볼 수 있듯이, V-DPO는 AMBER 점수에서 79.3점을 기록하며 경쟁 모델들을 상회하였다. 이는 단순한 객체 유무뿐만 아니라, 객체의 색상, 행동, 위치 관계 등 더 미세하고 복잡한 시각적 정보를 처리하는 데 있어 V-DPO가 우월함을 입증한다.

5.3 일반 멀티모달 성능의 보존 (MM-Vet, LLaVA-Bench)

일반적으로 특정한 문제(여기서는 환각)를 해결하기 위해 모델을 강하게 정렬하면, 모델의 창의성이나 일반적인 대화 능력이 떨어지는 ‘정렬 세금(Alignment Tax)’ 현상이 발생한다. 그러나 V-DPO는 이러한 부작용을 최소화하였다.

  • MM-Vet: V-DPO는 MM-Vet 벤치마크에서 베이스라인과 유사하거나 소폭 향상된 성능을 유지했다 (일부 결과에서 33.0 기록 12). 이는 환각을 줄이는 과정에서 모델의 전반적인 지능이나 추론 능력이 손상되지 않았음을 의미한다.
  • LLaVA-Bench: 실세계 이미지 설명 능력에서도 V-DPO는 높은 점수를 유지했다. 이는 모델이 사실성에 입각하면서도 여전히 풍부하고 상세한 설명을 생성할 수 있음을 보여준다.

5.4 이미지 대조 데이터의 효과: 언어적 의존성 탈피

연구진의 심층 분석(Ablation Study)에 따르면, V-DPO 성능 향상의 핵심 동력은 이미지 대조(Image-Contrast) 데이터에 있다. 응답 대조 데이터만 사용했을 때보다 이미지 대조 데이터를 함께 사용했을 때, 훈련 데이터 분포에서 벗어난(Out-of-distribution) 이미지에 대해서도 훨씬 강건한 성능을 보였다.

이는 시각적으로 유사하지만 핵심적인 차이가 있는 두 이미지(v_w vs v_l)를 구분하는 훈련 과정이 모델로 하여금 언어적 패턴에 맹목적으로 의존하는 것을 멈추고, 시각적 입력에 주의를 기울이도록(Visual Attention) 성공적으로 재프로그래밍했음을 시사한다.4


6. 결론 및 향후 전망 (Conclusion and Future Directions)

6.1 연구의 핵심 기여

본 보고서는 거대 시각-언어 모델의 환각 문제를 해결하기 위한 혁신적인 접근법인 V-DPO를 심층적으로 분석하였다. NUS 연구팀이 제안한 V-DPO는 다음과 같은 측면에서 기존 연구들과 차별화된다.

  1. 시각 중심의 정렬 패러다임 전환: 기존의 텍스트 중심 DPO를 넘어, ’이미지 대조’라는 새로운 차원을 도입하여 시각적 가이드(Visual Guidance)를 최적화 과정의 핵심으로 격상시켰다.
  2. 이중 대조 데이터의 효용성 입증: 합성적으로 생성된 이미지 대조 데이터가 모델의 언어적 편향을 효과적으로 깨뜨리고 시각적 민감도를 높이는 데 결정적인 역할을 함을 증명하였다.
  3. 실질적인 성능 향상: POPE, AMBER 등 주요 벤치마크에서 SFT 및 Vanilla DPO를 능가하는 성능을 기록하였으며, 특히 “Yes” 편향을 교정하고 일반 성능을 유지하는 균형 잡힌 결과를 보여주었다.

6.2 향후 연구 방향 및 제언

V-DPO의 성공은 향후 멀티모달 AI 연구에 중요한 시사점을 던진다.

  • 합성 데이터 파이프라인의 고도화: 현재의 이미지 조작(객체 치환 등)을 넘어, 더욱 정교하고 다양한 형태의 환각(예: 텍스트 오독, 복잡한 인과관계 오류)을 유발하는 네거티브 이미지를 생성하는 기술이 연구될 필요가 있다.
  • 비디오 도메인으로의 확장: V-DPO의 ‘시각적 앵커링’ 원리는 정지 이미지를 넘어 비디오-언어 모델(Video-LLM)의 시계열적 환각을 해결하는 데에도 적용될 수 있는 잠재력이 크다.
  • 미탐구 도메인 적용: 연구진이 언급했듯, 아직 탐구되지 않은 도메인(Unexplored Domains)이나 극도로 추상적인 이미지에 대한 일반화 능력을 검증하고 강화하는 후속 연구가 요구된다.5

결론적으로 V-DPO는 LVLM이 단순히 ’말 잘하는 모델’에서 ’정확하게 보고 정직하게 말하는 모델’로 진화하는 데 있어 필수적인 기술적 토대를 마련하였다. 이는 자율 주행, 의료 AI 등 고신뢰성이 요구되는 분야에서 LVLM의 상용화를 앞당기는 중요한 기폭제가 될 것이다.

참고 자료

  1. V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization - NUS Computing, 12월 9, 2025에 액세스, https://www.comp.nus.edu.sg/~kanmy/papers/2024.findings-emnlp.775.pdf
  2. Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization - arXiv, 12월 9, 2025에 액세스, https://arxiv.org/html/2502.13146v3
  3. [2411.02712] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization - arXiv, 12월 9, 2025에 액세스, https://arxiv.org/abs/2411.02712
  4. V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization - OpenReview, 12월 9, 2025에 액세스, https://openreview.net/pdf/f8e1d1527c4d8e9dcda690e315fd68a94da839a4.pdf
  5. V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization - ResearchGate, 12월 9, 2025에 액세스, https://www.researchgate.net/publication/385560680_V-DPO_Mitigating_Hallucination_in_Large_Vision_Language_Models_via_Vision-Guided_Direct_Preference_Optimization
  6. [PDF] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization | Semantic Scholar, 12월 9, 2025에 액세스, https://www.semanticscholar.org/paper/73020a07af4cfc42286e299097a0e35d2fe71a6c
  7. V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization - arXiv, 12월 9, 2025에 액세스, https://arxiv.org/html/2411.02712v1
  8. Daily Papers - Hugging Face, 12월 9, 2025에 액세스, https://huggingface.co/papers?q=Large%20vision-language%20model
  9. arXiv:2411.02712v1 [cs.CV] 5 Nov 2024 - SciSpace, 12월 9, 2025에 액세스, https://scispace.com/pdf/v-dpo-mitigating-hallucination-in-large-vision-language-7hry961caa3m.pdf
  10. Exposing Hallucinations to Suppress Them: VLMs Representation Editing with Generative Anchors - arXiv, 12월 9, 2025에 액세스, https://arxiv.org/html/2509.21997v1
  11. Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation - arXiv, 12월 9, 2025에 액세스, https://arxiv.org/html/2412.14487v4
  12. Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation - arXiv, 12월 9, 2025에 액세스, https://arxiv.org/html/2412.14487v1